查看原文
其他

爬虫俱乐部2023第一期编程训练营开始报名啦!


2023编程训练营开始报名啦!

武汉字符串数据科技有限公司将于2023年8月1日至9日河南大学(河南开封)举行Stata编程技术和Python编程技术定制培训,同时在网络平台进行直播,提供线上学习的方式。线上线下培训均有专门的答疑团队。

Stata培训课程通过案例教学模式,旨在帮助大家在短期内掌握Stata软件编程、金融计量知识和实证分析方法,使大家熟悉Stata核心的爬虫技术,以及Stata与其他软件交互的高端技术。培训涉及内容包括多种数据格式的读取和输出、数据的合并、实证结果的输出、爬虫俱乐部编写的命令介绍、正则表达式、网络爬虫等。

Python培训课程旨在帮助学员培养运用 Python 编程语言解决实际问题的能力,由浅入深学习和掌握Python的编程技术。课程全程以案例为纲,又辅以知识图谱文档,力图让学员在掌握Python基本思想的基础上,学习科学计算技术与网络数据抓取技术,为进一步地学习和工作打下坚实的基础。爬虫俱乐部是由国内高校知名教授领导下的研究生及本科生组成的大数据处理和分析团队,团队拥有十几年的历史。自创立以来,本团队开发了多个便捷高效的Stata命令,如cntrade、cnintraday、cnar等可以让用户快速获取中国股票日交易、日内分时数据、中国上市公司财务数据;cnevent可以根据用户提供的事件列表计算AR和CAR,让事件研究变得更简单;chinagcode和chinaaddress实现了中文地址和经纬度的相互转换;cnmapsearch可以根据关键词搜索给定经纬度周边的兴趣点;cntraveltime可以通过调用百度地图开放平台提供的接口服务,计算中国境内地点间的行程距离和行程时间;cnborder命令可以判断中文地址是否处于省、市、县边界处;reg2docx、t2docx、sum2docx和corr2docx使结果输出更加简洁,subinfile让网页内容分析和内容抓取异常简单……同时,团队也培养了众多优秀学生,向香港大学、香港理工大学、香港岭南大学和澳门大学等知名高校输送了一批高质量的研究助理,包括薛原、徐鑫、刘贝贝、李子健、赵一、周鹏、司海涛、张计宝等。由于技术精湛和工作勤奋受到用人单位的一致称赞。武汉字符串数据科技有限公司已开展近20期线下培训活动,曾应邀在武汉大学、华中科技大学、厦门大学、中央财经大学、中南财经政法大学、西南财经大学、石河子大学、兰州财经大学、华中农业大学、郑州大学、新疆财经大学、西南政法大学、河南大学、云南财经大学、湖北大学和湖北经济学院等高校举办Stata和Python编程培训,得到学员的一致好评。我们会继续努力,以培养学生、技术研发为己任,在少量盈利的基础上,努力将公益事业做好,传播实证技术和数据分析方法、开发数据分析的工具等,造福于学术界!

 Stata主要授课老师简介

薛原,华中科技大学管理学院博士研究生,香港中文大学(深圳)经管学院访问学生,曾长期在香港大学、香港岭南大学从事研究助理工作,爬虫俱乐部成员,擅长Stata、Python编程技术。参与编写了cngcode、cnaddress、t2docx、reg2docx、cnintraday、sum2docx等十余个热门Stata命令。能够实现中文地址与经纬度之间的转换、实证结果输出等多个功能。其中多个命令曾进入ssc最热门的前十大命令。从事公司金融以及资产定价方向的研究,已有成果发表《Stata Journal》(2篇)和《金融研究》。


 Python主要授课老师简介


毛秀萍,西班牙马德里卡洛斯三世大学博士,现任中南财经政法大学金融工程系讲师,硕士研究生导师,主要从事金融计量,数值分析,公司金融等领域相关研究。毛博士一直承担《Python语言设计》、《金融计量软件》、《大数据技术在金融领域的应用》等课程的教学工作,软件应用经验丰富。同时作为爬虫俱乐部成员,多次作为讲师参与Stata与Python的培训。

张学人,武汉字符串数据科技有限公司副总经理,武汉大学金融学博士研究生,擅长Python及Stata编程,开发有Stata命令chatgpt、cntraveltime、cnmapsearch,作为负责人完成法规条文可视化系统、全球经济金融相关度可视化系统及多个大型爬虫项目开发。并有论文被Stata Journal、Transformations in Business & Economics及《科学学研究》等国内外期刊接收。


Stata培训课程大纲


第一部分:数据读入与多框架数据系统

1)熟悉界面

2)多框架系统的基本原理

3)读入多个数据

4)寻求帮助(在线帮助、搜索帮助等)

5)DOS命令(cd、dir、erase、rm、shell等)

6)shellout调用其它系统应用

7)copy命令(文件操作、网页源代码获取等)

8)日期定义(日期格式设置、日期函数等)

9)函数(字符串函数、随机函数、编程函数等)

10)egen函数与常见统计量

11)txt、csv、excel等格式文件读入

12)Wind交易数据整理案例

13)基金经理变更数据整理案例

第二部分:宏与循环

1)local与global概念与基本操作

2)宏扩展函数

3)while、foreach、forvalue循环

4)跳出循环的continue 和continue, break

5)批量处理多个目录下的多个文件(fs命令)

6)批量处理多个变量的多个取值(levelsof命令)

7)读入Excel文件的多个sheet

8)NBER工作论文下载案例

9)上交所年报抓取综合案例

10)CSMAR交易和财务数据整理案例

第三部分:数据库操作

1)数据的纵向合并、横向合并与长宽变换

2)insobs增加观测值

3)expand

4)fillin

5)Wind财务数据整理案例

6)美国流行歌曲目录整理案例

7)起死回生命令(preserve与restore)

8)CSSCI期刊目录整理案例

9)label命令介绍

10)labelsof、label 的宏扩展函数

11)字符串处理(关键词、替换、提取等)

第四部分:Post命令

1)post命令工作原理

2)定义post

a)找朋友的案例

3)用post计算股价同步性和Beta

4)基于网络数据的事件研究

5)股本变更数据整理案例

6)Frame post的工作原理

a)使用frame计算同步性

b)使用frame实现事件研究

c)使用frame link替代merge

d)使用多框架frame 替代事件研究中的矩阵

e)使用frame 替代 preserve restore

第五部分:回归分析及结果输出

1)putdocx命令输出内容至word文档

a)编辑docx文件中的文字内容

b)输出并编辑表格内容

c)输出内存中的list结果

d)输出矩阵

e)输出绘图

2)putdocx命令相关案例

a)输出十进位制下的汉字unicode编码

b)结合常用汉字生成随机汉字组成的段落

c)爬取并输出豆瓣电影top250

d)添加footnote

e)横页(Landscape)和竖页(portrait)交替出现

f)添加段落

g)从文本文件中添加内容

3)实证结果输出

a)描述性统计信息:sum2docx

b)分组均值t检验:t2docx

c)相关系数矩阵:corr2docx

d)回归结果:reg2docx

4)实证结果输出完整展示 

第六部分:正则表达式

1)正则表达式基本函数介绍

2)ustrregexm()

3)ustrregexs()

4)ustrregexrf()与ustrregexra()

5)正则表达式元字符介绍

a)基本元字符

b)数量元字符

c)位置元字符

d)前后查找

e)特殊字符元字符

f)回溯引用

g)unicode编码

6)正则表达式匹配模式

a)贪婪模式

b)懒惰模式

7)正则表达式例子

a)邮编提取

b)英文姓与名的拆分

c)CSSCI数据预处理

d)城市名称提取

e)英文姓名的拆分

8)正则表达式相关命令介绍

a)moss命令与简单的词频统计

第七部分:网络爬虫

1)网络爬虫的基本原理

2)Stata爬虫基本流程

a)新浪财经的上市公司公告内容抓取

b)新浪财经上市公司高管任职信息与简历抓取

c)百度地图API的调用

3)Chrome浏览器抓包功能的使用

a)深交所信息披露质量数据抓取

4)POST请求方式

a)新浪财经港股交易数据

b)命令行工具curl的使用

c)Python接口的调用



Python培训课程大纲


第一天:Python简介与基础能力

第一节 导论

1.Python的历史、应用前景与优势

2.Python开发环境简介、程序实操

3.如何学习、获取帮助

第二节 常用数据类型与基础语法

1.常用数据类型

a) 数值、字符串

b) 列表、字典、元组与集合

c) 多层嵌套的列表与字典

2.基础语法

a) 运算符

b) 流程控制结构

c) 函数与方法

第二天:文件操作与数据处理

第三节 标准库与第三方库简介

1.  库的概念与使用

2.  Json

3.  Time

4. Pyecharts

第四节 操作系统标准库:OS

1.  文件的读写

2.  DOS命令的调用   

3.  文件系统的遍历与操纵

第五节 Xpath

1.  路径表达式

a) 使用XPath确定元素

b) 获取文本内容与文本节点

c) 获取属性

2.  XPath运算符

3.  Chrome浏览器与XPath Helper插件的使用

第六节 使用XPath提取网页信息

1.  新浪财经上市公司高管任职数据的抓取

2.  新浪财经上市公司公告数据抓取

第三天:Python网络数据抓取技术

第七节 网络数据抓取案例

1.  Chrome开发者模式讲解

2.  HTML内容讲解

3.  GET请求方式与POST请求方式

4.  抓取深交所信息披露考评数据(jsonpath提取网页信息)

5.  新浪财经港股交易数据

第八节 selenium

1.  当前业界反爬措施的总介绍

2.  Selenium网络数据抓取的代码理念与网络数据抓取技术的工程控制

第四天:科学计算

第九节 NumPy,Pandas介绍

1. ndarray简介

2. DataFrame简介

第十节 数据引入

1. 随机模拟+数据存储

2. 不同格式数据读入

第十一节 数据常见处理

1. 缺失值处理

2. 数据合并连接

3. 长宽格式转换

第十二节 数据基本分析

1. 数据的基本统计分析

2. 数据透视、分组分析

          3. 相关性分析、线性回归



培训对象

国内高校教师、硕士生、博士生、科研院所科研人员、大数据工作者,出国留学人员、社会团体、数据监管从业人员及Stata爱好者



培训日程安排

Stata培训报到时间及软件安装:2023年7月31日
上课时间:2023年8月1日—8月4日
Python培训报到时间及软件安装:2023年8月5日
上课时间:2023年8月6日—8月9日
上课地点:河南—开封

单人Stata或Python培训课程费用标准:


教师、研究员、企业人员、博士研究生

本科生、硕士研究生

线下课程费用

2000

1800

线上课程费用

1800

1600

注:7月10日前(含当日)报名每门立减200元!麻烦各位在转账前先填写报名表,并与联系人李甜甜取得联系(微信:ZNUMASTER) 

1.费用包含报名费、培训费,食宿自理
2.学生报名需提供有效学生证件
3.优惠方式:①三人及以上团体可享受八折团体优惠7月10日前(含当日)每门立减200!
4.以上优惠只能选择一个,不能叠加使用


报名步骤

1. 扫描下方二维码(或点击文末阅读原文)填写表单并提交报名信息

2. 缴费(缴费前请联系负责人确认缴费方式)3. 发送截图至statatraining@163.com(邮件主题为“爬虫俱乐部2023第一期培训+姓名+单位+班次”)4. 完成以上步骤即报名成功

支付方式

对公银行转账开户名:武汉字符串数据科技有限公司开户行:中国银行武汉东湖新技术开发区分行对公账号:579473738265




其他事项及培训安排

1、请学员自带笔记本电脑,我们将提供正版Stata18试用软件。2、本次培训食宿及往返交通费用需学员自理。3、即日起开始正式报名和收费。

相关单位

主办方:武汉字符串数据科技有限公司            爬虫俱乐部



联系方式

负责人:李甜甜QQ:2458089364微信:ZNUMASTER手机:17303900476邮箱:litt@stu.zuel.edu.cn


酒店推荐

1. 中州颐和酒店(开封市龙亭区河南大学金明校区西门)2. 宜尚酒店(开封市龙亭区金明大道与金祥路交叉口西北60米)




交通方式

1.开封北站(高铁站)

2.宋城路站(城际列车 郑州东站—宋城路站)


河南·开封

开封位于华中地区,是我国首批历史文化名城,素有八朝古都之称,迄今已有4100余年的建城史和建都史,北宋时期,开封是当时世界第一大都会,孕育着影响深远的”宋文化“,是一座历史悠长、文化底蕴丰厚的城市。作为有着悠久历史的城市,开封有很多旅游景点和美食。


旅游景点推荐:清明上河园、大宋武侠城、开封府、大相国寺、中国翰园碑林、天波杨府……


东京梦华:

《大宋·东京梦华》是由实景演出策划人梅帅元创意,知名实景演出导演张仁胜执导,中国大型宋文化主题公园——开封清明上河园出品的大型实景水上演出。《大宋·东京梦华》首次投资1.35亿元人民币,演出时长70分钟,由700多名演员参与演出,是中国实景演出的又一力作。


大宋武侠城:

万岁山·大宋武侠城是在原国家森林公园的基础上建立起来的以大宋武侠文化为核心的AAAA级主题景区,是一座以宋文化、城墙文化和七朝文化为景观核心、以大宋武侠文化为旅游特色、以森林自然为格调、兼具休闲功能的多主题、多景观的大型游览区。


特色美食:灌汤包、四味菜、酱焖鲤鱼、鲤鱼焙面、花生糕、麻辣花生、炒凉粉、炒红薯泥、驴肉汤、羊肉炕馍......




河南大学

    河南大学坐落在历史文化名城、八朝古都开封。这里曾是河南贡院的所在地,1903、1904年最后两场全国会试在这里举行,上千年的科举制度在这里划上句号。1912年,以林伯襄为代表的一批河南仁人先贤,在欧风美雨和辛亥革命胜利的曙光中创办了河南留学欧美预备学校,成为当时中国的三大留学培训基地之一。后历经中州大学、国立第五中山大学、省立河南大学等阶段,1942年改为国立河南大学,是当时学术实力雄厚、享誉国内外的国立大学之一。新中国成立后,经院系调整,河南大学农学院、医学院、行政学院分别独立设置为河南农学院、河南医学院、河南行政学院,水利、财经等院系也先后调入武汉大学、中南财经政法大学等高校,校本部更名为河南师范学院。后又经开封师范学院、河南师范大学等阶段,1984年恢复河南大学校名。
河南大学明伦校区:河南大学发源地,是三个校区中历史最悠久、建筑风格最独特的校区,环境宜人,学校内绿树成荫,园林式风格让人赏心悦目。            河南大学金明校区         河南大学郑州校区
(部分图片转载自网络,版权属于原作者或网站,如有版权异议及其他任何问题敬请及时告之。)

对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!

往期推文推荐

迈向交互式编程,ChatGPT更新!

一个简单又好玩的Python库——MyQR

replace命令的“加强版”!——如何使用ereplace,结合egen
XML 轻松读取:用 Python 发现数据宝藏

爬虫俱乐部重磅推出cnstata.com.cn

Markdown:让数学公式输入更方便!

处理日期的好手:pendulum
定制属于自己的“贾维斯”——Python调用Chat
学会format,数据格式任你拿捏【Python实战】游客最青睐的城市,你的家乡上榜了吗?

What’ new ? 速通Stata 18

【爬虫实战】Python爬取美食菜谱揭秘网络中心人物,你会是其中之一吗?考研之后,文科生需以“do”躬“do”!焕新升级!轻松获取港股、权证的历史交易数据爬虫俱乐部的精彩答疑---cntraveltime【爬虫俱乐部新命令速递】在Stata中与ChatGPT对话

用`fs`命令批量获取文件夹和不同文件夹下的excel文件

自然语言处理之实例应用     关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存